在實作機器學習的系統時要注意認知偏誤的存在
在這裡課程大致舉例幾種常見的偏誤
通報偏誤只有不尋常的事情與極端值會被注意,普遍而平凡的事不能被展現,比如說Youtube的影片普通來說用戶並不會表達喜歡或不喜歡,這類一般的反應並沒有被注意到,能被注意到的通常都是較為極端的觀點
相信自動化的偏誤,相信自動化或機器學習的結果一定比專家等人為判定要來的好。
覆蓋性的偏誤忽略調查的對象的母群體,只關注在子群體中,可能不能達到預期的效果,例如發問卷給購買本家產品的顧客,因為只又自家的消費者數據,並不能預測整個市場可能對新產品的購買趨向。
參與偏誤在過程中,資料的獲取在不同樣本區間所能拿到的資料本身代表性不足,用上個例子接著說明,就算想到要調查其他產品的使用者,但其他肯配合調查的人可能會比較少,這些被調查的人可能無法代表其他產品使用者的立場。
抽樣偏誤收集樣本的時候的方法,會導致樣本並不是母群體中的隨機樣本,像是電話民調……。
群體偏誤請像透過一兩個案例歸因整個群體都有相似的特徵,而忽略個體本身的差異。
隱性偏誤根據自己的個人經驗做出假設,去訓練模型,比如使用搖頭來作為表達否定的特徵,但其實在某些地區,搖頭表達的是肯定
Google本身還有一些文章在探討這個部分,但由於時間不夠先略過,以後再來補這個部分
到今天,我大致上把速程課程的內容都看過一次了,其實速成課程的內容真的都還蠻簡單的,講的概念非常的基本,也都是之前在修課有學過的概念,所以這幾天鐵人賽沒什麼壓力,每天根據進度學習的時間意外的少,如果要給個合理的時間的話,這樣的課程內容其實三天內就可以結束掉(只是知道個概念,不整理筆記的話),不過這樣也好,可以有時間好好工作。